I. Introdução à Análise Exploratória de Dados (EDA)

Desenvolvida por John Tukey, a EDA investiga conjuntos de dados para resumir suas características fundamentais.

  • Pré-processamento: Realização da limpeza de dados para correção de erros não amostrais (leituras absurdas ou omissões).
  • Dados Brutos: Dados na forma original de coleta.
  • Rol: Conjunto de dados brutos ordenados de modo crescente ou decrescente.

II. Resumos Numéricos: Medidas de Tendência Central

Estimadores usados para aproximar parâmetros populacionais. Uma medida é resistente quando pouco afetada por valores discrepantes.

  • Média ($\bar{x}$): Soma das observações dividida por $n$. A soma dos desvios em torno da média é sempre nula.
  • Mediana ($Md$): Valor que divide o conjunto ordenado em 50% superiores e 50% inferiores. É uma medida resistente.
  • Moda ($Mo$): Valor de maior frequência na amostra.

III. Resumos Numéricos: Medidas de Dispersão e Padronização

Variância Amostral: $$s^2 = \frac{\sum (X_i - \bar{x})^2}{n-1}$$ Coeficiente de Variação: $$CV = \frac{s}{\bar{x}} \times 100\%$$
  • Desvio Padrão ($s$): Raiz quadrada da variância; mantém a mesma unidade da variável original.
  • Padronização (Z-score): Indica quantos desvios padrões um valor está distante da média: $Z = \frac{x - \bar{x}}{s}$.

IV. Resumos Numéricos: Medidas de Subdivisão (Separatrizes)

Delimitam proporções específicas de observações em um conjunto ordenado:

  • Quartis: Dividem os dados em 4 partes (25%, 50%, 75%).
  • Percentis: Dividem os dados em 100 partes.

V. Medidas de Forma

Avaliam a geometria da distribuição em relação à Normalidade.

  • Assimetria: Simétrica ($\bar{x} = Md = Mo$), Assimétrica Positiva ($\bar{x} > Md > Mo$) ou Negativa ($\bar{x} < Md < Mo$).
  • Curtose: Mede a agudeza do pico. Mesocúrtica (Normal), Platicúrtica (achatada) ou Leptocúrtica (aguda).

VI. Apresentação Tabular de Dados

Organização em tabelas (dados numéricos sem bordas laterais) ou Tabelas de Contingência (entrada dupla para variáveis qualitativas).

As distribuições de frequências agrupam grandes volumes de dados em classes ($k$), comumente calculadas pela Regra de Sturges.

VII. Apresentação Gráfica de Dados

  • Histograma: Colunas unidas representando a densidade de frequências de variáveis quantitativas.
  • Box-Plot: Representação visual que destaca a mediana, quartis e identifica outliers (discrepantes).
  • Ramos e Folhas: Técnica híbrida que mantém os valores numéricos originais.